The science of deep learning

ディープラーニングの科学

Richard Baraniuka, David Donohob,1, and Matan Gavishc

今日の科学者は、機械が何を学習できるかに関して、わずか 10 年前とはまったく異なる考えを持っています。

特に、画像処理、音声・動画処理、マシンビジョン、自然言語処理、そして古典的な2人用ゲームにおいては、過去10年間で最先端技術が急速に進歩し、公開されたチャレンジ問題において機械学習の性能記録が次々と達成されました。これらのチャレンジの多くにおいて、記録は人間のパフォーマンスレベルに匹敵、あるいは上回っています。

2010年の対局で、当時のコンピュータ囲碁ソフトウェアは強い人間の囲碁棋士に勝てないことが証明されました。2020年の今日、人間の囲碁棋士(世界チャンピオンのイ・セドル氏を含む)が、過去10年かけて構築されたシステムであるAlphaGoに勝てると信じている人は誰もいません。これらの新たな成績記録とその達成方法は、10年前の予想を覆すものです。当時、人間レベルの成績はまだまだ遠い未来のように見え、多くの人々にとって、当時利用可能ないかなる技術もそのような成績を達成できるとは考えられませんでした。

AlphaGoのようなシステムは、この10年間、全く予想外の同時進行による複数の面での発展の恩恵を受けました。一方では、クラウドコンピューティングという形で、前例のないオンデマンドでスケーラブルなコンピューティングパワーが利用可能になり、他方では、世界最大級のテクノロジー企業が、グローバルな人材プールから人材エンジニアリングチームを編成するために巨額の投資を行いました。これらのリソースは、この10年間で着実に活用され、課題に対するパフォーマンスの急速な向上を可能にしました。

2010年代は、真の技​​術爆発、つまり一度きりの転換期を迎えました。膨大な画像とテキストデータが突如として一般公開されたのです。数十億人がソーシャルメディアに数​​兆枚もの画像や文書を投稿し、「ビッグデータ」という言葉がメディアで広く知られるようになりました。画像処理と自然言語処理は、この新たなデータリソースによって永遠に変化しました。コンピューティング能力の革命的な向上と、新たにグローバル化した人材プールを活用し、新たな画像とテキストリソースが活用されたのです。

画像処理分野は、この新しいデータの影響を最初に受けました。フェイフェイ・リー氏とその共同研究者がウェブから収集したImageNetデータセットは、毎年開催されるImageNet Large-Scale Visual Recognition Challenge (ILSVRC) 予測チャレンジコンペティションの基盤となりました。これらのコンペティションは、今日の機械学習におけるディープラーニングパラダイムの出現と継続的な改良の基盤となりました。

ディープニューラルネットワークは少なくとも1980年代から着実に発展してきましたが、試行錯誤によるヒューリスティックな構築は分析を困難にしていました。1990年代から2000年代にかけて、人工ニューラルネットワークは、形式的な理論的根拠を重視する科学者から長い間疑念の目で見られていました。この10年間で、ニューラルネットワークはImageNetのような予測課題において圧倒的な地位を占めるようになりました。インターネット上の画像データとクラウドの計算リソースの爆発的な増加により、新しく非常に野心的なディープネットワークモデルは、カーネル法などのより「形式的に分析可能な」手法に大幅な差をつけて予測課題を制覇するようになりました。

実際、深層ネットワークは、より「理論的に理解しやすい」手法に対して、10年が経つにつれてパフォーマンス面で優位性を示しました。初期の成功例は、猫と犬の写真を区別することで有名ですが、その後すぐに、顔認識や動画内の歩行者追跡といった本格的なコンピュータービジョンの問題でも成功を収めました。

画像処理における最初の成功から数年後、ディープ ネットワークは自然言語処理に進出し始め、最終的には最大規模の産業研究チームの手によって、105 言語のいずれかを他の任意の言語に翻訳できるシステム、さらには以前に翻訳例がほとんどなかった言語ペアにも翻訳できるシステムが生み出されました。

今日では、数百億のパラメータを持つ深層ネットワークが、数百億のサンプルを含むデータベースを用いて学習されているという話は、もはや衝撃的なものではありません。一方で、経験的に導き出されたシステムが人間のパフォーマンスを支配し、そのシステムの特性として最もよく理解されていたのは、ゲームプレイやImageNetのような予測課題で優位に立つ能力だけだったという状況を目の当たりにすることは、科学者にとってますます不安を募らせたかもしれません。

2019年3月、米国科学アカデミーはワシントンD.C.のアカデミービルで「ディープラーニングの科学」と題したサックラー・コロキウムを開催しました。主催者の目標は、今日の経験的に導き出されたディープラーニングシステムに関する科学的理解を深めるとともに、従来の科学研究におけるディープラーニングシステムの活用を促進することでした。

そのために、学界と産業界の重要人物が2日間にわたってプレゼンテーションを行いました。聴衆には、全国の研究機関から集まった多くの大学院生やポスドク、NSF、NIH、国防総省(DoD)の研究スポンサー、そしてワシントンD.C.地域の研究所に所属する米国政府の科学者などが含まれていました。彼らはプレゼンテーションの合間に、多くの議論の種を見つけました。聴衆の間で特に好評だったのは、アムノン・シャシュア氏とロドニー・ブルックス氏の2人のプレゼンテーションでした。

ヘブライ大学およびインテル・モビリティ・システムズのアムノン・シャシュア氏は、自動運転車の実現に向けたコンピュータビジョン研究戦略について講演しました。シャシュア氏は、移動車両のビジョンシステムのエラー率は、視覚経験1兆単位あたり1回未満に抑える必要があると述べ、将来的にはそのような低いエラー率を持つ検証済みシステムを実現できるモデリングおよびテスト戦略について議論しました。

マサチューセッツ工科大学(MIT)のロドニー・ブルックス氏は、機械学習システムが完全に汎用的な知能を発揮するには数百年かかるとの見解を示した。ブルックス氏は、現在成功を収めているディープラーニングシステムが膨大な量の良質なデータに対して並外れた需要を持っていることを指摘し、これを人間がごくわずかなデータから理解し一般化できる能力と対比させた。

コロキウム開催の数週間前、ホワイトハウスは「アメリカ国民のための人工知能」(1)と題する国家戦略文書を発表し、人工知能(AI)への新たな米国投資を呼びかけました。コロキウムはワシントンモールにあるアカデミーの建物で開催され、一夜にしてこの新たな取り組みについて議論する絶好の場となりました。戦略策定に深く関わった者を含む、資金提供機関(NSF、NIH、国防総省)の代表者が、直近および今後の研究ポートフォリオについて説明し、ディープラーニング研究が今後の国家研究イニシアチブにどのように位置付けられるかを聴衆に説明しました。

サックラー・コロキウム・シリーズの一環として、このイベントにはPNASの特別号が付随しています。現在ご覧いただいている号は、コロキウムの講演者と参加者の一部が執筆したものです。この号に収録された多くの興味深い論文は、この新しく急速に発展している分野における科学研究の活力と深さを反映しています。

この特集号は、2本の概説論文で幕を開けます。ソーク研究所のテレンス・J・セイノフスキー氏は、「人工知能における深層学習の不合理な有効性」(2) について論じています。セイノフスキー氏の論文タイトルは、ユージン・ウィグナー氏の有名なエッセイ「物理科学における数学の不合理な有効性」(3) に始まり、この10年間でアロン・ハレヴィ氏、ピーター・ノーヴィグ氏、そしてグーグルのフェルナンド・ペレイラ氏による「データの不合理な有効性」(4) へと続く、類似の論文タイトルの伝統を受け継いでいます。この伝統において、著者は一般的に、特定の分野では疑いようのない成功を収めているものの、私たちが完全に理解しておらず、より高次の視点から見ると驚くべきものかもしれない技術(例えば、数学、ビッグデータ、深層学習)を指摘します。セイノフスキー氏(2)は、様々な重要な機械学習問題において、深層学習が従来の統計学習理論の予測をはるかに上回る性能を発揮するというパラドックスを検証しています。セイノフスキー氏は、今日のディープラーニング システムは脳の大脳皮質からヒントを得ているが、汎用人工知能を実現するには、計画や生存を司る脳の他の重要な領域からヒントを得る必要があると示唆している。

MITのTomaso Poggio、Andrzej Banburski、Qianli Liaoは、「ディープネットワークの理論的課題」(5)で優れたフォローアップを行い、ディープニューラルネットワークの近似能力、複雑性制御、および一般化特性に関する最近の理論的成果を考察しています。経験的に、ディープニューラルネットワークは、これら3つの側面において、他の機械学習モデルとは大きく異なる動作をします。近似については、著者らは、特定の畳み込みネットが特定の滑らかな関数を近似する際に「次元の呪い」を回避できることを証明する正式な結果を述べています。複雑性制御と正則化については、著者らは、適切に正規化されたネットワークの指数損失下での勾配フローを動的システムと見なしています。著者らは、制約なし勾配降下法の暗黙的な正則化特性を指摘し、過剰パラメータ化されたディープネットで観察される複雑性制御を説明できる可能性があるとしています。

「ディープラーニングは私たちを驚かせ続ける」という考えは、スタンフォード大学のクリストファー・D・マニング、ケビン・クラーク、ジョン・ヒューイット、ウルヴァシ・カンデルワル、そしてオマー・レヴィによってさらに発展させられました(6)。彼らは、ラベル付けされた学習データなしに、与えられた文脈におけるマスクされた単語を予測する、自己教師学習によるディープラーニングネットワークを考察しています。著者らは、統計的機械学習による予測言語モデルは、言語構造に関する興味深い創発的知識を獲得しないという、言語学における支配的な見解に異議を唱えています。自己教師学習中にディープラーニングネットワークに出現する統語的、形態論的、そして意味的な言語構造について、驚くべき実証的証拠が提示されています。自己教師学習によってこのような豊富な情報が出現するという事実は、人間の言語習得にとって興味深い示唆を与えています。

ニューヨーク大学のカイル・クランマーは、共著者のヨハン・ブレマーおよびジル・ルッペと共に、論文「シミュレーションに基づく推論の最前線」(7)において、新たな驚くべき成果について論じています。この論文では、これまで解決困難と考えられてきた素粒子物理学における重要な科学的推論問題について論じています。今日の「機械学習革命」を指摘し、著者らは、大規模な科学的シミュレーション、能動学習などの機械学習の考え方、そして確率モデルを融合することで、こうした推論問題に取り組む新たな可能性を見出しています。実際、機械学習は科学的シミュレーションからの測定値を用いて学習することで、往々にして入手困難な従来の分析的確率モデルに代わる経験的モデルを提供することで、我々の助けとなります。著者らは様々な科学的推論問題を指摘し、次のような結論を述べています。「…科学のいくつかの領域において…推論の質の大幅な向上が期待される…この移行は科学に計り知れない影響を与える可能性がある」(7)。

当特集号では、具体的な研究課題に関する興味深い記事も掲載しています。カリフォルニア大学バークレー校のピーター・L・バートレット氏と共著者のフィリップ・M・ロング氏、ガボール・ルゴシ氏、アレクサンダー・ツィグラー氏は、「線形回帰における良性過剰適合」(8)について論じています。近年の多くのディープラーニングモデルでは、適合させるデータポイントの数よりも、決定すべきパラメータの数の方が多いのが現状です。このようなモデルは過剰適合していると言えます。従来、これは優れた実証科学の妨げになると考えられてきました。著者らは、「良性過剰適合という現象は、ディープラーニング手法によって解明された重要な謎の一つです。ディープニューラルネットワークは、ノイズの多いトレーニングデータに完璧に適合していても、優れた予測を行うように見えます」(8)と述べています。著者らは、線形回帰という簡略化された設定において、この状況を鋭く形式的に分析しています。

MITのアントニオ・トラルバは、共著者のデイビッド・バウ、ジュンヤン・チュー、ヘンドリック・ストロベルト、アガタ・ラペドリザ、ボレイ・ゾウと共に、重要な懸念事項に取り組んでいる。深層ニューラルネットワークには数十億もの人工ニューロンが含まれているが、それらは一体何をしているのだろうか? 彼らの論文「深層ニューラルネットワークにおける個々のユニットの役割を理解する」(9)は、次のように始まる。「深層ネットワークの個々の隠れユニットは、ネットワークが複雑なタスクを解く方法を教えてくれるのだろうか? 興味深いことに、最先端の深層ネットワークでは、多くの単一ユニットが、ネットワークに明示的に教えられていない、人間が解釈できる概念と一致することが観察されている。ユニットは、物体、部品、質感、時制、性別、文脈、感情などを検出できることが分かっている。」著者らは、こうした識別を行うための定量的なツールについて説明している。第二の「アノテーションネットワーク」を構築し、ネットワークのニューロンを反応させる概念を識別する「解剖」フレームワークを開発した。この技術は画像分類および画像生成ネットワークに適用され、敵対的攻撃や意味的画像編集に関する新たな洞察を提供します。

マギル大学および DeepMind の Doina Precup 氏と共著者の Andre´ Barreto 氏、Shaobo Hou 氏、Diana Borsa 氏、および David Silver 氏は、AlphaGo の世界最強のゲームプレイシステムを生んだ機械学習の一種である強化学習について論じています。強化学習は大量のデータを必要とすることで知られています。Precup 氏らは解決策を提案しています。論文「一般化されたポリシー更新による高速強化学習」(10) は、「強化学習とディープラーニングの組み合わせは、現在解決困難な重要な逐次的意思決定問題に取り組むための有望なアプローチです」という一文で始まります。ディープラーニングとのこのような組み合わせの障害を克服するために、著者 (10) は、「強化学習における 2 つの基本的な操作、ポリシー改善とポリシー評価の一般化。これらの操作の一般化バージョンにより、一部のタスクの解決を利用して、他のタスクの解決を高速化することができます」と提案しています。 (10)「どちらの戦略も、強化学習問題を解くために必要なデータの量を大幅に削減する」ことがわかります。

特集号の最後は、機械学習が日常生活に与える影響に関する新たな懸念を取り上げている2つの論文で締めくくられています。ケンブリッジ大学のアンダース・C・ハンセン氏と共著者のベガード・アントゥン氏、フランチェスコ・レナ氏、クラリス・プーン氏、ベン・アドコック氏は、差し迫った技術的脅威を指摘しています。彼らの論文「画像再構成におけるディープラーニングの不安定性とAIの潜在的コストについて」(11) は、コンピュータービジョンにおけるディープニューラルネットワークの不安定性という重要な現象に注目を促しています。画像分類における不安定性、そしてそれがミッションクリティカルなシステムにおけるディープラーニングビジョンシステムの使用に関してもたらす潜在的な安全性とセキュリティの問題は、文献で広く議論されてきました。著者らは、ディープラーニングベースの画像再構成において、ディープニューラルネットワークが画像逆問題を解くように学習される際に、同様の不安定性現象が発生することを明らかにしています。彼らは、医療用画像処理などのアプリケーションにおける潜在的な安全性の問題を懸念しています。アントゥン氏らは、安定性の問題を診断するための安定性テストを提案し、そのようなシステムを検査するためのソフトウェア実装について説明しています。

コーネル大学のジョン・クラインバーグと共著者のジェンス・ルートヴィヒ、センディル・ムライナサン、キャス・R・サンスティーン (12) は、日常生活に機械学習を導入することで起こり得る副作用に関する根本的に新しい懸念を取り上げることで特集号を締めくくっています。それは、機械学習が人間の判断をコード化したデータに頼ることで、差別や偏見を体系化してしまうのではないか、というものです。彼らは主張を次のように要約しています。「…差別を検出するための既存の法律、規制、および関連システムは、もともとアルゴリズムに頼らない人間の意思決定者の世界のために構築されました。これらのシステムに変更を加えない限り、アルゴリズムを導入しても差別を検出するという課題の解決には役立たず、問題全体を悪化させる可能性があります。」著者は楽観的な見方で締めくくっています。「アルゴリズムはその性質上、人間の意思決定に通常含まれるよりもはるかに高いレベルの特異性を必要とし、ある意味で究極の『ブラックボックス』です。適切な法規制システムが整備されていれば、アルゴリズムはガイガーカウンターのような役割を果たし、差別の検出を容易にし、ひいては差別の防止にも役立つ可能性がある(12)。

これらの論文は、多くの驚き、パラドックス、そして課題を明らかにしています。急速に発展するこの分野から、多くの学術研究の機会が生まれていることを改めて認識させてくれます。ほんの一部ですが、ディープラーニングは科学そのものに広く活用され、既存分野の進歩を加速させる可能性があります。理論家は、この10年間のディープラーニング革命がもたらす難問やパラドックスへの理解を深めるかもしれません。科学者は、機械学習における産業界主導のイノベーションが社会レベルのシステムにどのような影響を与えているかをより深く理解するかもしれません。こうした機会を追求することは、新たなリソースと人材を必要とするため、容易ではありません。この特集号が、こうした機会を追求する活発な科学的取り組みを刺激し、将来のPNAS誌でディープラーニングに関する議論がさらに深まることを期待しています。

謝辞

著者らは、長年にわたり米国科学アカデミー・サックラー・コロキアを後援してくださったジリアン・サックラー女史に感謝の意を表します。また、国防総省、国立衛生研究所(NIH)、国立科学財団(NSF)の代表者を含む、ワシントンD.C.地域の多くの住民の皆様にもご参加いただき、感謝申し上げます。多くの大学院生が全米各地からワシントンD.C.を訪れ、活発な議論に参加しました。米国科学アカデミーとPNASのスタッフの皆様にも、毎回の会合で大変お世話になりました。

参考文献